Lập trình các bộ xử lý song song quy mô lớn: Một cách tiếp cận thực hành: Vượt ra ngoài mảng tuyến tính: Mở rộng sang dữ liệu đa chiều

Chào mừng bạn đến với Sự chuyển giao vĩ đại. Trong lập trình CPU, chúng ta xác định làm thế nào để lặp lại; còn trong GPGPU, chúng ta xác định điều gì một lần lặp có hình dạng như thế nào. Sự chuyển dịch từ logic tập trung vào lệnh sang logic tập trung vào dữ liệu được thúc đẩy bởi Sự trừu tượng kernel.

1. Bản thiết kế global

Bằng cách sử dụng __global__ thuộc tính, bạn không đang viết một hàm—bạn đang thiết kế một bản thiết kế mở rộng. Một lần thực thi kernel đại diện cho một đơn vị công việc độc lập, cho phép GPU tổ chức hàng nghìn tác vụ giống nhau trên số lượng lõi khổng lồ mà không cần quản lý luồng thủ công.

2. Bộ giải quyết địa chỉ toàn cục

Làm thế nào để một luồng duy nhất trong hàng triệu luồng tìm được mục tiêu của nó? Nó sử dụng một thỏa thuận xác định gọi là công thức lập chỉ số:

$$\text{threadID} = \text{blockIdx.x} \times \text{blockDim.x} + \text{threadIdx.x}$$

Công thức này hoạt động như một hệ tọa độ, nối kết dữ liệu logic của phần mềm (mảng) với cấu trúc vật lý của phần cứng (khối và luồng).

3. Cấu hình thực thi

Các tham số <<<B, T>>> xác định hình dạng lưới. Điều này đảm bảo Tính mở rộng minh bạch: mã nguồn của bạn chạy logic giống hệt nhau dù phần cứng có 2 SM hay 80 SM.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary role of the __global__ qualifier?

To define a function that runs on the CPU and is called by the GPU.

To mark a function as a kernel that is callable from the host and executes on the device.

To synchronize all threads across the entire GPU grid.

To allocate memory in the global memory space.

QUESTION 2

If blockIdx.x = 2, blockDim.x = 256, and threadIdx.x = 10, what is the global index?

266

512

522

778

QUESTION 3

What does 'Transparent Scalability' imply in CUDA?

The memory automatically scales with the size of the input array.

The same code can run on different GPUs with varying SM counts without modification.

Threads can see into the registers of other threads.

The kernel speed increases linearly with the clock speed of the CPU.

QUESTION 4

Why is the if (i < n) check necessary in a kernel?

To prevent the GPU from overheating.

To ensure threads do not access memory outside the valid array bounds.

To check if the kernel is running on the correct SM.

To synchronize memory access between threads.

QUESTION 5

Which variable represents the number of threads within a single block?

gridDim.x

blockIdx.x

blockDim.x

threadIdx.x

1. Bản thiết kế __global__

2. Bộ giải quyết địa chỉ toàn cục

3. Cấu hình thực thi

1. Bản thiết kế global